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开源 组 件 在 新 华 社 数据 服务 平台 中 的 应 用 


摘 要 : 随 着 媒体 融合 发 展 、 移 动 互联 网 的 高 速 发 展 ， 传 统 的 IT 架构 不 能 适应 新 形式 下 的 媒体 报道 要 求 。 为 适应 新 要 求 ， 
新 华 社 推 进 了 四 大 应 用 平台 建设 。 数 据 服 务 平台 作为 新 华 社 数据 核心 ， 为 四 大 应 用 平台 提供 了 底层 数据 支撑 。 数 据 服务 平台 
采用 了 微服 务 架 构 ， 使 用 大 量 的 开源 、 分 布 式 组 件 。 本 文 对 数据 服务 平台 及 其 使 用 的 组 件 进 行 了 介绍 ， 并 总 结 了 数据 服务 平 
台 带 来 的 数据 管理 两 大 变化 。 
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随 着 媒体 融合 发 展 的 要 求 , 移动 互联 网 的 深入 普及 ， 1. 数据 服务 平台 概况 
新 华 社 传统 的 开架 构 已 经 不 能 适应 新 时 代 报 道 的 需求 。 数据 服务 平台 对 外 提供 四 大 类 的 服务 , 即 服 务 管理 、 
新 华 社 于 2016 年 底 开 始 构建 新 一 代 技 术 体系 ， 目 前 ， 数据 服务 、 大 数据 计算 服务 和 GlusterFS 文件 存储 服务 。 
基于 开源 技术 的 全 媒体 采编 发 平台 ( 新 采编 发 ) 、 全 媒 ”服务 管理 实现 服务 接口 的 统一 管理 ， 提 供 服务 注册 、 发 
体 供稿 平台 ( 新 供稿 ) 、 办 公 协 同 平台 (新 0A) 、 全 现 、 路由、 管理 等 功能 。 服 务 管理 除了 注册 和 管理 数据 
媒体 业务 管理 平台 ( 新 闻 热点 、 新 闻 线 索 、 落 地 统计 、 服务 平台 自己 的 服务 外 ， 还 注册 了 用 户 认证 管理 系统 和 
报道 指挥 ) 四 大 应 用 平台 基本 建设 完成 。 数 据 服 务 平 台 。 办 公 协 同 平台 等 其 他 系统 的 服务 。 数 据 服务 目前 提供 了 
作为 新 华 社 数据 汇聚 中 心 ， 为 上 述 四 大 平台 提供 底层 文 基础 服务 、 全 文 检索 、 数 据 订 阅 、 语 义 分 析 、 推 荐 、 标签、 
撑 。 现 数据 服务 平台 已 经 初步 建成 ， 提 供 了 数据 接 入 、 用 户 信 息 、 资 源 管理 8 类 99 个 服务 。 大 数据 计算 服务 在 
存储 、 服 务 、 处 理 、 分 析 、 统 计 、 应 用 等 服务 ,实现 了 新 华 社 总 社 、 东 坝 机 房 分 别 部 署 了 17 个 节点 和 14 个 节点 。 
社内 稿件 、 引 进 资源 、 互 联网 数据 、 用 户 信 息 、 行 为 数 ” 大 数据 计算 服务 可 为 全 社 提供 Spark、Storm 计算 服务 ， 
据 和 服务 审计 数据 的 聚合 , 为 各 应 用 系统 提供 数据 服务 。 HDFS、HBase、Hive 存储 分 析 能 力 。GlusterFS 分 布 式 文 
数据 服务 平台 采用 分 布 式 、 开 源 的 架构 体系 ， 辅 助 于 一 ” 件 存 储 服务 ， 同 样 分 为 两 个 集群 ， 目 前 总 社 主 集群 30 个 


体 化 分 层 的 监控 体系 ， 为 新 华 社 融合 报道 提供 了 强 有 力 节点 ， 东 坝 备 份 集群 12 个 节点 ， 已 经 为 四 大 平台 和 数据 
的 支撑 。 服务 平台 提供 了 322T 的 空间 。 
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图 1 数据 服务 平台 总 体 架构 图 
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数据 服务 平台 自 下 而 上 分 为 四 层 ， 即 基础 组 件 层 、 
数据 处 理 层 、 数 据 服务 层 和 应 用 层 , 依托 于 基础 设施 层 。 
2. 基础 组 件 层 
基础 组 件 层 使 用 的 主要 开源 组 件 有 18 个 ， 为 数据 服 
务 平台 、 全 媒体 采编 发 、 新 OA、 落 地 统计 、 影 响 力 分 析 
和 项 目 管理 系统 提供 服务 。 根 据 开源 组 件 在 数据 服务 平 
台中 的 功能 ， 我 们 将 其 分 为 数据 库 、 分 布 式 文件 存储 、 
大 数据 计算 、 数 据 交换 、 其 他 五 类 。 

2. 1 数据库 类 组 件 

数据 库 类 组 件 主 要 包括 MongoDB、ES、MySQL 
(MariaDB ) 、HBase、Codis/Redis。MongoDB 用 于 存储 
社内 稿件 ，HBASE 和 ES 除 存储 社内 稿件 外 还 存储 互联 
网 数据 ，MySQL 用 于 系统 运行 所 需要 的 关系 型 数据 。 
Codis/Redis 在 数据 服务 平台 中 存储 频繁 使 用 的 业务 数据 ， 
如 授权 使 用 的 分 类 、 用 户 行为 数据 、 稿 件 推荐 数据 等 。 

MongoDB 是 专 为 可 扩展 性 、 高 性 能 和 高 可 用 性 而 设 
计 的 数据 库 ， 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产 
品 。 它 可 以 从 单 服务 器 部 署 扩展 到 大 型 、 复 杂 的 多 数据 
中 心 架构 。 利 用 内 存 计算 的 优势 ，MongoDB 能 够 提供 高 
性 能 的 数据 读 写 操作 。 MongoDB 的 副本 复制 和 自动 故障 
转移 功能 使 应 用 程序 具有 企业 级 的 可 靠 性 和 操作 灵活 性 ， 
分 片 机 制 提 供 了 方便 的 横向 扩展 能 力 。 其 非 结构 化 的 特 
性 , 方便 存储 各 种 类 型 稿件 数据 、 用 户 数据 、 日 志 数据 。 
在 数据 服务 平台 中 使 用 MongoDB 数据 库 代 替 了 原来 的 
Oracle 数据 库存 储 社内 稿件 ， 作 为 核心 应 用 数据 库 。 

ES 是 Elastic Search 的 简称 ， 它 是 由 多 个 Lucene 实 
例 组 成 的 分 布 式 检索 和 分 析 系 统 ， 是 分 布 式 的 搜索 引擎 
和 数据 分 析 引 擎 ， 可 以 对 海量 数据 进行 近 实 时 处 理 。ES 
结合 了 全 文 检索 、 数 据 分 析 以 及 分 布 式 技术 ， 提 供 了 强 
大 功能 。 数 据 服务 平台 中 使 用 ES 做 检索 处 理 。 

MySQL 是 一 种 大 家 广泛 熟悉 的 关系 数据 库 。 但 
MySQL 被 Oracle 公司 掌控 后 ，MySQL 原来 开发 者 创立 了 
MariaDB 分 支 。MariaDB 与 Mysql 高 度 兼容 ， 并 保证 开源 
免费 。 数 据 服务 平台 主要 使 用 MySQL 保存 服务 和 应 用 信 
息 、 线 路 和 目录 监控 信息 、 分 发 信息 等 系统 元 数据 、 配 
置 等 结构 化 数据 。 

HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 该 
技术 来 源 于 Fay Chang 所 撰写 的 Google 论文 Bigtable。 
HBase 不 同 于 一 般 的 关系 数据 库 ， 它 是 一 个 适合 于 非 结 
构 化 数据 存储 的 数据 库 。HBase 主要 用 于 存储 社内 稿件 
和 互联 网 稿件 等 数据 ， 用 于 离线 数据 分 析 。 
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Codis/Redis 是 KeyValue 型 内 存 数 据 库 。Codis 是 
一 个 分 布 式 Redis 解决 方案 ， 通 过 Codis Proxy， 将 多 台 
Redis 服务 器 集中 起 来 使 用 ， 实 现 Redis 服务 器 横向 扩展 。 
对 于 上 层 的 应 用 来 说 , 连接 到 Codis Proxy 和 连接 原生 的 
Redis Server 没有 明显 的 区 别 ， 上 层 应 用 可 以 像 使 用 单机 
的 Redis 一 样 使 用 Codis。 Codis 底层 会 处 理 请 求 的 转发 ， 
不 停机 的 数据 迁移 等 工作 , 这 些 后 台 事 务 对 于 前 面 的 客户 
端 来 说 是 透明 的 , 可 以 简单 地 认为 后 边 连 接 的 是 一 个 内 存 
无 限 大 的 Redis 服务 。 
2. 2 分 布 文件 存储 类 组 件 

分 布 式 文件 存储 类 组 件 包含 HDFS、GlusterFS。 

HDFS 是 Hadoop 分 布 式 文件 系统 的 简称 。HDFS 是 
一 个 高 度 容错 性 的 系统 , 适合 部 署 在 廉价 通用 的 机 器 上 。 
HDFS 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适合 大 规模 数据 
集 上 的 应 用 。HDFS 放宽 了 一 部 分 POSIX 约束 ， 实 现 流 
式 读 取 文件 系统 数据 的 目的 。 数 据 服 务 平台 中 ，HDFS 主 
要 为 Hive、HBase 等 组 件 提 供 文件 系统 支撑 服务 ， 存 储 
日 志 及 用 户 行为 数据 等 。 

GlusterFS 是 一 种 分 布 式 文件 系统 ， 存 储 的 对 象 为 文 
件 。 它 将 多 台 服 务 器 上 的 空间 统一 管理 起 来 形成 存储 池 
供 外 界 使 用 。 相 比 于 其 他 的 分 布 式 文件 系统 ，GlusterFS 
最 大 的 优点 在 于 运 维 简单 ， 极 易 上 手 。GlusterFS 的 架构 
为 三 层 : 集群 、 卷 、Brick。 在 数据 服务 平台 中 ， 按 照 存 
储 文件 大 小 将 集群 分 为 三 类 : 一 类 是 小 文件 集群 ， 存 储 
1k-100K 左右 大 小 的 文件 ， 主 要 涉及 CNML 文件 ， 图 片 
的 缩 略 图 ， 部 分 音 视 频 的 关键 帧 ; 另 一 类 是 中 文件 集群 ， 
存储 500k-10M 左右 的 文件 ， 一 般 涉 及 图 片 、Word、Pdf 
等 附件 ; 最 后 一 类 是 大 文件 集群 , 存储 10M 以 上 的 文件 ， 
主要 涉及 音 视 频 文 件 。 每 个 集群 会 根据 业务 需要 ， 分 别 
建立 不 同 的 卷 ， 每 个 卷 由 指定 的 集群 中 的 部 分 或 全 部 服 
务 器 下 的 Brick 组 成 。Brick 是 一 个 被 建立 的 目录 ， 用 来 
存储 数据 。 
2.3 大 数据 计算 类 组 件 

大 数据 计算 类 组 件 包括 Storm、Hive、Spark、YARN。 

Storm 用 于 分 布 式 的 实时 流 式 数据 处 理 。 应 用 场景 
有 实时 分 析 、 连 续 计 算 、 在 线 学 习 、 分 布 式 RPC、ETL 等 。 
Storm 集群 由 Nimbus 、Supervisor 节点 组 成 ，Nimbus 是 
主 控 节 点， 用 于 提交 任务 、 分 配 集群 任务 ， 集 群 监控 ; 
Supervisor 是 计算 节点 ， 接 受 Nimbus 分 配 的 任务 ， 管 
理 属 于 自己 的 Worker 进程 ; Nimbus 和 Supervisor 通过 
进行 协同 。 数 据 服 务 平 台中 ， 使 用 Storm 实 
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现 数据 的 格式 转换 和 数据 转 储 ， 为 数据 分 析 提 供 数 据 基 
础 。 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 
提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 提取 转化 加 载 
(ETL) ， 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 
大 规模 数据 。Hive 定义 了 简单 的 类 SQL 查询 语言 ， 称 
为 HQL， 它 允许 熟悉 SQL 的 用 户 查 询 数据 。 同 时 ， 这 个 
语言 也 允许 MapReduce 开发 者 开发 自 定 义 的 mapper 和 
reducer 来 处 理 复杂 的 分 析 工 作 。 

Spark 是 专 为 大 规模 数据 处 理 而 设计 的 快速 通用 
的 计算 引擎 。Spark 是 加 州 大 学 伯克利 分 校 的 AMP 实 
验 室 所 开源 的 类 Hadoop MapReduce 的 通用 并 行 框架 。 
Spark 拥有 Hadoop MapReduce 所 具有 的 优点 ， 但 不 同 于 
MapReduce 的 是 ,Spark 中 间 输 出 结果 可 以 保存 在 内 存 中 ， 
从 而 不 再 需要 读 写 HDFS。 因 此 ，Spark 能 更 好 地 适用 于 
数据 挖掘 与 机 器 学 习 等 场景 。 

YARN 是 大 数据 集群 中 资源 的 管理 和 调度 模块 。 
YARN 的 基本 思想 是 将 资源 管理 、 任 务 调度 和 监控 分 成 不 
同 的 模块 。 主 要 方法 是 创建 一 个 全 局 的 ResourceManager 
(RM) 和 为 每 个 应 用 程序 创建 的 ApplicationMaster 
( AM ) 。 这 里 的 应 用 程序 是 指 单一 的 作业 或 作业 的 DAG 
(有 向 无 环 图 ) 。ResourceManager 控制 整个 集群 并 管 
理 基 础 计算 资源 的 分 配 。ResourceManager 将 各 个 资源 部 
分 (计算 、 内 存 、 带 宽 等 ) 精心 安排 给 NodeManager。 
ResourceManager 还 与 ApplicationMaster 一 起 分 配 资源 ， 
与 NodeManager 一 起 启动 和 监视 它们 的 基础 应 用 程序 。 
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2.4 数据 交换 类 组 件 

数据 服务 平台 使 用 了 两 种 消息 交换 组 件 ， 分 别 是 
RabbitMQ 和 Kafka。 使 用 消息 交换 组 件 有 两 大 优点 : 一 是 
系统 之 间 解 耦 , 降低 系统 间 的 耦合 性 ; 另 一 个 是 业务 削 峰 ， 
当 生 产 者 大 量 产生 数据 时 ， 消 费 者 无 法 快速 消费 ， 消 息 组 
件 作 为 中 间 层 来 保存 这 个 数据 ， 达 到 业务 削 峰 的 目的 。 

RabbitMQ 是 实现 AMQP ( 即 Advanced Message Queuing 
Protocol， 高 级 消息 队列 协议 ) 的 一 种 消息 中 间 件 ， 最 初 起 
源 于 金融 系统 ， 用 于 在 分 布 式 系统 中 存储 转发 消息 。 在 数 
据 服 务 平台 中 ， 利 用 RabbitMQ 实现 各 应 用 程序 间 的 消息 
传递 ， 完 成 稿件 处 理 的 各 流程 ， 是 数据 服务 平台 的 核心 应 
用 。 下 图 为 数据 服务 平台 中 新 闻 稿件 处 理 流程 图 ， 从 图 中 
可 以 看 到 核心 的 消息 队列 是 由 RabbitMQ 来 实现 的 ， 它 将 
数据 服务 平台 内 部 各 模块 和 外 部 各 系统 连接 起 来 。 

Kafka 是 一 个 分 布 式 的 流 平台 ， 它 有 三 个 关键 的 功 
能 : 发 布 和 定 阅 流 式 记录 ， 类 似 消息 队列 或 企业 消息 系 
统 ; 以 容错 的 方式 存储 流 式 消息 记录 ; 及 时 处 理 流 式 消 
息 记 录 。Kafka 主要 用 来 构建 实时 的 流 式 数据 管道 ， 构 
建 实时 流 式 数据 应 用 。 在 数据 服务 平台 中 ，Kafka 主要 
用 于 互联 网 数据 、 用 户 行为 数据 、 服 务 审计 数据 、 日 志 
数据 的 交换 和 传输 。 比 如 ， 落 地 统计 系统 从 互联 网 采集 
的 数据 经 过 清洗 和 过 滤 后 ， 放 到 Kafka 的 topic 中 ， 供 数 
据 服务 平台 入 库 或 其 他 系统 进行 处 理 分 析 。 探 头 系统 采 
集 的 用 户 行为 数据 、 服 务 管理 系统 的 服务 审计 数据 、 应 
用 系统 和 基础 组 件 的 日 志 数 据 通过 Kafka 传 给 Storm 进 
行 处 理 或 存 人 HDFS 供 其 他 应 用 分 析 处 理 。 


2 新 闻 稿件 处 理 流程 
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2.5 其 他 类 组 件 
其 他 类 开源 组 件 包括 Zookeeper、Nginx、Sqoop、 
Ambari 、ELK。 

Zookeeper 是 为 分 布 式 应 用 提供 协同 服务 的 高 性 能 分 
布 式 系统 ， 它 可 以 提供 配置 信息 维护 服务 、 命 名 服务 、 
分 布 式 同步 服务 、 组 服务 。 大 部 分 基于 分 布 式 的 大 数据 
组 件 需 要 Zookeeper 提供 支撑 。 

Nginx 是 俄罗斯 人 编写 的 十 分 轻 量 级 、 高 性 能 的 
HTTP 和 反问 代理 服务 器 ， 也 是 一 个 IMAP/POP3/SMTP 代 
理 服 务 器 。Nginx 以 事件 驱动 的 方式 编写 ， 具有 非常 好 的 
性 能 ， 同 时 也 是 一 个 非常 高 效 的 反 向 代理 、 负 载 均 衡 。 
Nginx 具有 很 高 的 稳定 性 ， 支 持 热 部 署 ， 启 动容 易 , 并 且 
几乎 可 以 做 到 7*24 不 间断 运行 ， 即 使 运行 数 个 月 也 不 需 
要 重新 启动 。 还 能 够 在 不 间断 服务 的 情况 下 ， 对 软件 版 
本 进行 升级 。 数据 服 务 平 台中 大 量 应 用 使 用 Nginx 做 代理 ， 
实现 负载 均衡 ， 或 直接 提供 Web 应 用 服务 。 

Sqoop 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 
数据 相互 转移 的 工具 ， 可 以 将 一 个 关系 型 数据 库 ( 如 
MySQL ,Oracle ,Postgres 等 ) 中 的 数据 入 进 到 Hadoop 的 
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大 的 容错 能 力 。 
结语 

数据 服务 平台 利用 开源 组 件 的 分 布 可 扩展 性 ， 结 合 
数据 服务 层 使 用 的 微服 务 架构 ， 使 新 华 社 数据 管理 架构 
出 现 两 大 转变 : 第 一 个 转变 是 从 库 到 数据 的 变化 。 数 据 
的 存储 方式 由 集中 式 的 关系 型 数据 库 转 换 成 了 分 布 式 数 
据 库 ; 数据 加 工 由 原来 简单 的 增 、 删 、 改 、 查 转换 为 数 
据 的 处 理 、 分 析 、 挖 据 ; 数据 的 种 类 由 原来 单一 的 新 闻 
稿件 扩展 到 了 互联 网 数据 、 用 户 行为 数据 、 日 志 数 据 等 
多 元 化 数据 ; 数据 量 也 由 发 生 了 巨大 变化 ， 原 来 每 日 生 
成 的 稿件 数据 约 几 万 条 ， 现 在 每 日 采集 清理 后 的 互联 网 
数据 达 三 百 多 万 条 ， 另 外 还 有 大 量 的 用 户 行为 和 日 志 数 
据 。 第 二 个 转变 是 从 系统 到 平台 的 转变 。 原 来 的 IT 系统 
以 单个 系统 为 单位 对 外 提供 功能 ， 随 着 时 间 的 发 展 ， 新 
华 社 的 开 系 统 林 立 ， 功 能 交错 依赖 ， 众 多 新 系统 上 线 后 ， 
老 旧 系统 不 能 及 时 下 线 并 占用 大 量 资源 ， 增 大 了 运 维 难 
度 ; 平台 的 建立 ， 完 成 了 从 提供 功能 向 提供 服务 能 力 的 
转变 ， 把 功能 分 解 为 服务 ， 统 一 注册 管理 ， 避 免 了 重复 
建设 ， 降 低 了 运 维 难度 ; 平台 的 服务 对 象 ， 由 单一 应 用 


HDFS 中 , 也 可 以 将 HDFS 的 数据 导入 到 关系 型 数据 库 中 。 
对 于 某 些 NoSQL 数据 库 它 也 提供 了 连接 器 。 数 据 服 务 平 
台 使 用 此 工具 将 MySQL 中 的 用 户 数据 导入 到 Hlve 中 。 

Ambari 是 一 种 基于 Web 的 管理 工具 ， 支 持 Apache 
Hadoop 集群 的 部 署 、 管 理 和 监控 。Ambari 已 支持 大 多 
数 Hadoop 组 件 ， 包 括 HDFS、MapReduce、Hive、Pig、 
Hbase 、Zookeeper、Sqoop 和 Heatalog 等 。 使 用 Ambari 可 
以 方便 部 署 安装 Hadoop 集群 ， 起 停 Hadoop 集群 中 的 相 
关 组 件 ， 监 控 Hadoop 集群 及 相关 组 件 的 运行 状况 。 

ELK 由 三 个 开源 组 件 (ES、Logstash、Kibana ) 构成 
的 日 志 收 集 、 处 理 和 展示 工具 。 数 据 服务 平台 使 用 ELK 
做 应 用 日 志 分 析 。 

3. 数据 服务 层 和 数据 处 理 层 

数据 服务 层 和 数据 处 理 层 的 部 分 功能 使 用 Spring 
Cloud Netflix 微服 务 架 构 实 现 。 通 过 Fureka + Zuul + 
Ribbon + Feign + Hystrix 构建 微服 务 架 构 ， 将 数据 处 理 层 
中 的 公共 模块 封装 成 服务 接口 ， 注 册 到 Eureka 服务 器 上 。 
Eureka 维护 着 每 个 服务 的 生命 周期 ， 并 通过 心跳 确定 服 
务 是 否 正 常 。Zuul 部 署 在 Eureka 前 端 ， 作 为 智能 路 由 为 
外 部 请 求 提供 统一 入口。 服务 客户 端 使 用 Feign 方 式 调 用 ， 
通过 Ribbon 实现 服务 端的 负载 均衡 ，Hystrix 断路 器 为 避 
免 发 生 雪 骨 效应 而 引入 ， 对 服务 延迟 和 故障 提供 更 加 强 


扩展 到 同时 为 多 个 应 用 提供 服务 ; 平台 建设 由 原来 的 使 
用 商业 化 产品 转向 使 用 开源 组 件 , 节省 了 系统 建设 成 本 ， 
提高 了 系统 上 线 速度 , 满足 了 互联 网 时 代 产 品 快速 上 线 、 
不 断 迭 代 的 要 求 ; 新 的 平台 使 用 水 平分 层 、 横 向 扩展 的 
分 布 式 架 构 ， 取 代 原 来 系统 使 用 的 垂直 一 体 架构 ， 从 而 
实现 服务 能 力 快 速 、 低 成 本 、 动 态 平滑 扩展 。 虽 
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